实时视频细分是许多实际应用程序(例如自动驾驶和机器人控制)的关键任务。由于最新的语义细分模型尽管表现令人印象深刻,但对于实时应用来说通常太重了,因此研究人员提出了具有速度准确性权衡的轻量级体系结构,以降低准确性为代价实现实时速度。在本文中,我们提出了一个新颖的框架,通过利用视频中的时间位置来加快使用跳过连接进行实时视觉任务的架构。具体而言,在每个帧的到来时,我们将特征从上一个帧转换为在特定的空间箱中重复使用它们。然后,我们在当前帧区域上对骨干网络进行部分计算,以捕获当前帧和上一个帧之间的时间差异。这是通过使用门控机制动态掉出残留块来完成的,该机制决定哪些基于框架间失真掉落。我们在具有多个骨干网络的视频语义分割基准上验证了我们的时空掩码发生器(STMG),并证明我们的方法在很大程度上可以随着准确性的最小损失而加快推断。
translated by 谷歌翻译
Inspired by the impressive performance of recent face image editing methods, several studies have been naturally proposed to extend these methods to the face video editing task. One of the main challenges here is temporal consistency among edited frames, which is still unresolved. To this end, we propose a novel face video editing framework based on diffusion autoencoders that can successfully extract the decomposed features - for the first time as a face video editing model - of identity and motion from a given video. This modeling allows us to edit the video by simply manipulating the temporally invariant feature to the desired direction for the consistency. Another unique strength of our model is that, since our model is based on diffusion models, it can satisfy both reconstruction and edit capabilities at the same time, and is robust to corner cases in wild face videos (e.g. occluded faces) unlike the existing GAN-based methods.
translated by 谷歌翻译
语言表示建模的最新进展广泛影响了密集检索模型的设计。特别是,许多高性能的密集检索模型使用BERT评估查询和文档的表示形式,并随后应用基于余弦相似的评分来确定相关性。然而,已知BERT表示遵循狭窄的锥形的各向异性分布,对于基于余弦相似的评分,这种各向异性分布可能是不希望的。在这项工作中,我们首先表明基于伯特的DR还遵循各向异性分布。为了解决这个问题,我们介绍了无监督的后处理方法,使流动和美白归一化,并开发了令牌方法,除了将后处理方法应用于密集的检索模型的表示形式外,还针对序列方法。我们表明,所提出的方法可以有效地增强各向同性的表示形式,然后我们与Colbert和Repbert进行实验,以表明文件重新排列的性能(NDCG 10)可以改善5.17 \%$ \ sim $ 8.09 \ sim $ 8.09 \ Colbert的%和6.88 \%$ \ sim $ 22.81 \%的Repbert。为了检查各向同性表示对改善DR模型的鲁棒性的潜力,我们研究了测试数据集与培训数据集不同的分数外任务。结果表明,各向同性表示可以达到普遍改善的性能。例如,当训练数据集为MS-Marco并且测试数据集为鲁棒04时,各向同性后处理可以提高基线性能高达24.98 \%。此外,我们表明,使用过分分布数据集训练的各向同性模型甚至可以胜过通过分布数据集训练的基线模型。
translated by 谷歌翻译
准确的面部标志是许多与人面孔有关的任务的重要先决条件。在本文中,根据级联变压器提出了精确的面部标志性检测器。我们将面部标志性检测作为坐标回归任务,以便可以端对端训练该模型。通过在变压器中的自我注意力,我们的模型可以固有地利用地标之间的结构化关系,这将受益于在挑战性条件(例如大姿势和遮挡)下具有里程碑意义的检测。在级联精炼期间,我们的模型能够根据可变形的注意机制提取目标地标周围的最相关图像特征,以进行坐标预测,从而带来更准确的对齐。此外,我们提出了一个新颖的解码器,可以同时完善图像特征和地标性位置。随着参数增加,检测性能进一步提高。我们的模型在几个标准的面部标准检测基准上实现了新的最新性能,并在跨数据库评估中显示出良好的概括能力。
translated by 谷歌翻译
有条件图像生成的最新方法受益于密集的监督,例如分割标签图,以实现高保真性。但是,很少探索使用密集的监督进行无条件的图像生成。在这里,我们探讨了密集监督在无条件生成中的功效,找到生成器特征图可以替代成本昂贵的语义标签图。从我们的经验证据来看,我们提出了一种新的生成器引导的鉴别剂正则化(GGDR),其中生成器的特征地图监督了歧视者在无条件生成中具有丰富的语义表示。具体而言,我们采用了一个U-NET架构进行鉴别器,该体系结构经过训练,可以预测发电机特征图作为输入的伪造图像。关于Mulitple数据集的广泛实验表明,我们的GGDR始终在定量和定性方面提高基线方法的性能。代码可从https://github.com/naver-ai/ggdr获得
translated by 谷歌翻译
最近的研究表明,基于隐式神经表示(INR),gan的进展显着,而MLP鉴于其(x,y)坐标,该MLP产生RGB值。它们代表图像作为基础2D信号的连续版本,而不是2D阵列的像素,它为GAN应用程序打开了新的范围(例如,零击的超分辨率,图像支出)。但是,培训现有方法需要与图像分辨率成正比的重型计算成本,因为它们为每个(x,y)坐标都计算MLP操作。为了减轻此问题,我们提出了一种基于多阶段的培训,这是一种新颖且可扩展的方法,可以训练基于INR的gan具有灵活的计算成本,而不论图像分辨率如何。具体而言,我们的方法允许通过补丁产生和歧视图像的本地细节,并通过新颖的重建损失来学习全球结构信息,以实现有效的GAN培训。我们在几个基准数据集上进行实验,以证明我们的方法可以增强GPU内存中的基线模型,同时将FID保持在合理的水平。
translated by 谷歌翻译
基于内核的量子分类器是用于复杂数据的超线化分类的最有趣,最强大的量子机学习技术,可以在浅深度量子电路(例如交换测试分类器)中轻松实现。出乎意料的是,通过引入差异方案,可以将支持向量机固有而明确地实现,以将SVM理论的二次优化问题映射到量子古典的变分优化问题。该方案使用参数化的量子电路(PQC)实现,以创建一个不均匀的权重向量,以索引量子位,可以在线性时间内评估训练损失和分类得分。我们训练该变量量子近似支持向量机(VQASVM)的经典参数,该参数可以转移到其他VQASVM决策推理电路的许多副本中,以分类新查询数据。我们的VQASVM算法对基于云的量子计算机的玩具示例数据集进行了实验,以进行可行性评估,并进行了数值研究以评估其在标准的IRIS花朵数据集上的性能。虹膜数据分类的准确性达到98.8%。
translated by 谷歌翻译
量子神经网络在嘈杂的中间量子时代的广泛应用方面有希望。因此,对自动量子神经架构搜索的需求不断增长。我们通过设计高斯工艺的贝叶斯优化的量子电路指标来应对这一挑战。为了实现这一目标,我们提出了一个新的量子门距离,该距离距离,以每个量子状态的行动为特征,并就其几何特性提供理论观点。我们的方法极大地超过了三个经验量子机学习问题的基准,包括培训量子生成的对抗网络,在MaxCut问题中求解组合优化以及模拟量子傅立叶变换。我们的方法可以扩展以表征各种量子机学习模型的行为。
translated by 谷歌翻译
为了开发直肠癌的自动化工作流程,三维形成式放射治疗计划,结合了深度学习(DL)孔径预测和前向规划算法。我们设计了一种算法来自动化临床工作流程,以使用现场场地进行计划。对555名患者进行了训练,验证和测试DL模型,以自动生成一级和增强场的光圈形状。网络输入是数字重建的X射线照相,总肿瘤体积(GTV)和Nodal GTV。一名医师以5分制(> 3个可以接受)为20名患者的每个孔径为每个孔径评分。然后开发了一种计划算法,以使用楔形和子场的组合创建均匀剂量。该算法迭代识别热点卷,创建子字段并在没有用户干预的情况下优化光束重量。使用具有不同设置的临床光圈对20例患者进行了测试,并由医生评分结果计划(4例计划/患者)。端到端的工作流程通过医生对39名使用DL生成的孔径和计划算法进行了测试和评分。预测的孔的骰子得分分别为0.95、0.94和0.90,分别为侧面,外侧和升压场。 100%,95%和87.5%的后侧,外侧和升压孔分别为临床上可接受。在85%和50%的患者中,楔形计划和非界定计划在临床上是可以接受的。最终计划的热点剂量百分比从121%($ \ $ 14%)降低到处方剂量的109%($ \ pm $ 5%)。自动生成的光圈和优化现场计划的综合端到端工作流程为38/39(97%)的患者提供了可接受的计划。我们已经成功地自动化了临床工作流程,以为我们的机构生成放射疗法计划。
translated by 谷歌翻译
我们提出了一个深层神经网络,用于从不受约束的肖像图像中删除不良阴影特征,从而恢复基础纹理。我们的培训计划纳入了三种正则化策略:蒙面损失,以强调高频阴影特征;软阴影损失,改善了对照明微妙变化的敏感性;和阴影偏移估计,以监督阴影和纹理的分离。与最先进的方法相比,我们的方法表明了质量和概括的改善。我们进一步展示了我们的愉悦方法如何增强光敏的计算机视觉任务任务(例如面部重新放置和语义解析)的性能,从而使它们能够处理极端的照明条件。
translated by 谷歌翻译